| |
|
Síťový interface k detektoru klíčových slov
Skotnica, Martin ; Glembek, Ondřej (oponent) ; Szőke, Igor (vedoucí práce)
Rozpoznávání řeči je oblastí, která je v současné době celosvětově intenzivně studována. Systémy schopné rozpoznat mluvenou řeč se stávají součástí běžného života v mnoha aplikacích. Jednou z nich je i detekce klíčových slov, způsob jak odhalit výskyt určitých slov v datech. Detektor vyvinutý na VUT Fakultě informatiky nám umožňuje detekovat tyto slova. Cílem této práce je tedy navrhnout a implementovat síťový interface k detektoru klíčových slov na bázi klient/server. Cílová aplikace se připojí na server a posílá mu zvuková data. Server na tyto data spouští detektor klíčových slov a výsledek posílá zpět klientovi, kde se interaktivně zobrazí uživateli.
|
|
Interpretability of Neural Networks in Speech Processing
Sarvaš, Marek ; Mošner, Ladislav (oponent) ; Žmolíková, Kateřina (vedoucí práce)
With the growing popularity of deep neural networks, the lack of transparency caused by their black box representation is raising demand for their interpretability. The goal of this thesis is to gain new insights into deep neural networks in speech processing tasks. Specifically, gender classification task on AudioMNIST dataset and speaker classification task on filterbanks from VoxCeleb dataset using convolutional and residual neural network. Layer-wise relevance propagation was used for the interpretation of these neural networks. This method produced heatmaps highlighting features that contributed positively and negatively to the correct classification. As results of interpretation show, classifications were mainly based on lower frequencies in time. In the case of gender classification, I managed to find the model's high dependency on a small number of features. Using obtained information, I created an augmented training set that increased the model's robustness.
|
|
Konverze hlasu
Hodaň, David ; Novotný, Ondřej (oponent) ; Černocký, Jan (vedoucí práce)
Práce se zabývá problematikou konverze hlasu, což je transformace parametrů řeči jednoho řečníka tak, aby zněl jako někdo jiný. Je proveden rozbor metod odrážejících současný stav technik konverze. V teoretické části je nejprve přiblížen způsob tvorby řeči s důrazem na atributy identifikující a charakterizující hlas. Jsou popsány metody modifikace hlasu s jejich výhodami a úskalími, jež předurčují oblast použití daných metod. Dále jsou probrány způsoby transformace hlasu mezi zdrojovým a cílovým mluvčím. Na základě popsaných poznatků je vytvořen software demonstrující jednu z cest jak tohoto cíle dosáhnout. Konverze je rozdělena z pohledu trénování a syntézy. Součástí práce je program konverze hlasu, který byl vytvořen v programovém prostření MATLAB. Postupně je v práci popsán jeho návrh, implementace a zhodnocení dosažených výsledků.
|
|
Webový prohlížeč přednášek
Žižka, Josef ; Mikolov, Tomáš (oponent) ; Fapšo, Michal (vedoucí práce)
Tato práce se zabývá webovým prohlížečem přednášek, jehož cílem je usnadnit přístup k informacím s využitím moderních řečových a multimediálních technologií. Jsou rozebrány jednotlivé technologie, na kterých je prohlížeč postaven. Významnou roli v prohlížeči představují videozáznamy, a proto je velká část této práce zaměřena na digitální video a způsoby jeho doručení skrze streaming servery. Jsou uvedena řešení podobně stavěných multimediálních prohlížečů. Čtenář je seznámen s návrhem prohlížeče. Toto zahrnuje popis jeho jednotlivých komponent a je vysvětlena jejich vzájemná synchronizace. Je představena výsledná verze prohlížeče přednášek, jsou zmíněny problémy, které se vyskytly v průběhu jeho vývoje a při nasazení prohlížeče do reálného provozu. Na konci práce je diskutován budoucí vývoj webového prohlížeče přednášek.
|
| |
|
Webový prohlížeč audio/video záznamů přednášek: převod prohlížeče na MySQL databázi
Janovič, Jakub ; Fapšo, Michal (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá webovým prohlížečem, jehož cílem je zjednodušit získávání znalostí s využitím multimédií. Je tu představený již existující prohlížeč přednášek vytvořený jako diplomový projekt v rámci FIT VUT Brno. Demonstrované jsou technologie, které jsou v něm využity, a které budou použity na převod prohlížeče na MySQL databázi a vztvoření modulu úprav přepisu řeči. Čtenář se dozví o analýze a návrhu nového modelu aplikace. Dále jsou probrány implementační metody vývoje a následného testování systému. Na konci práce je zhodnocení s budoucím vývojem webového prohlížeče přednášek.
|
|
Vizualizace výstupu z řečových technologií pro potřeby kontaktních center
Zhezhela, Oleksandr ; Szőke, Igor (oponent) ; Schwarz, Petr (vedoucí práce)
Diplomová práce se zabývá vizualizací dat získaných pomocí řečových technologií pro potřeby kontaktních center. Jsou prozkoumány metody získávání informaci z řečových signálů a existující nástroje, které řeší podobné úlohy. Je analyzován rozsah dat, která lze z řečových technologií získat. Procesy a standardy používané v kontaktních centrech. Na základě požadavků pracovníků kontaktních center bylo implementováno uživatelské rozhraní pro vizualizaci dat a audio přehrávačznázorňující řečová data. Získané poznatky a řešení byly implementovány do nástroje Speech Analytics Server (SPAS).
|
|
Odhad obličeje z řečového signálu
Zubalík, Petr ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce)
Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.
|
|
Implementace detektoru klíčových slov do mobilního telefonu (Symbian 60)
Cipr, Tomáš ; Schwarz, Petr (oponent) ; Szőke, Igor (vedoucí práce)
Detektor klíčových slov je jednou z aplikací automatického rozpoznávání řeči. Úkolem detektoru je určit, ve kterých místech souvislého toku řeči se vyskytují slova ze zadaného seznamu. Detektor klíčových slov najde řadu uplatnění mimo jiné i v mobilních telefonech, např. pro jejich ovládání hlasem. S nástupem OS Symbian se otevřela možnost jak detektor implementovat i pro tato zařízení. Zpráva popisuje jednak teoretická a odborná východiska realizace detektoru a také jeho následnou implementaci. Nejdříve je uveden operační systém Symbian s ohledem na praktické řešení úkolu. Dále je popsán způsob detekce klíčových slov od vstupního řečového signálu až po výstup, zda a která slova byla nalezena. Následně je prezentován objektový návrh detektoru a podrobněji popsána jeho implementace. Závěrem jsou shrnuty dosažené výsledky a nastíněn další vývoj.
|